☰
13.1.2 희소 보상(Sparse Reward) 환경에서의 한계: 단순 탐험(Epsilon-greedy) 전략의 실패와 구조적 탐험의 필요성
Home
/
인공지능 (Artificial Intelligence, AI)
/
제목: Embodied AI & Modern Control
/
Chapter 13. 계층적 강화학습과 스킬 발견 (Hierarchical RL & Skill Discovery)
/
13.1 시간적 추상화와 장기 계획의 난제 (Temporal Abstraction & Long-Horizon Problems)
/
13.1.2 희소 보상(Sparse Reward) 환경에서의 한계: 단순 탐험(Epsilon-greedy) 전략의 실패와 구조적 탐험의 필요성
13.1.2 희소 보상(Sparse Reward) 환경에서의 한계: 단순 탐험(Epsilon-greedy) 전략의 실패와 구조적 탐험의 필요성